R語言的資料採礦導引 : 大數據時代的資料分析

R語言的資料採礦導引 : 大數據時代的資料分析

作者: 陳鴻敏
出版社: 經緯文化
出版在: 2018-08-01
ISBN-13: 9789578755550
ISBN-10: 9578755554




內容描述


近數年各行各業的發展都朝網路及大數據靠攏,他們需要懂得網路運作的法政人才、了解數據分析的銷售人才、擅長數位技術的金融人才、孰悉資訊技術的醫療人才、深諳資料處理及分析的文學人才。過去,想要跨足資訊領域很困難,因為門檻很高(無論是軟硬體的需求都很昂貴而且學習困難),所以資訊科班出身的人才很吃香,但未來人才的競爭力來自於跨領域的能力,光靠資訊技術難以滿足創新時代的要求,反而是那些具備理工、法商、文史、生醫等專業而又懂得資料處理者才是時代的寵兒。因為現代資訊領域的門檻已大幅降低,金費及時間已不是問題,只要您願意突破心理障礙,大膽跨入新領域,就會有驚人的收穫。本書旨在協助您跨足新領域、展開新視界,讓您成為高人一等的Data Analyst數據分析師,或Big Data Engineer大數據工程師。
由於網路交易的頻繁及政府資料庫的開放,資料的產出如海水般湧入,資料的取得及保存也「易於往昔」,故如何運用電腦從中挖掘有用的資訊,以提高決策品質,才是今日各界需要面對的重點,但是怎麼挖?用甚麼工具挖?
資料採礦涉及許多不同的演算方法,如果不能了解其演算原理,就會陷入「知其然而不知其所以然」的盲點,甚或誤用採礦方法。坊間有關資料採礦的書籍很多,但多欠缺深入的解說,只是重點翻譯或是規則重述,沒有作者自己的思維(消化咀嚼之後的表述),以致讀者閱讀之後仍是一頭霧水,這類書籍充其量只能作為授課大綱,而無助於問題之解決。
本書分為10章,第1章說明R語言的用法,第2~8章為關聯分析、叢集分析、分類分析、資料包絡分析、決策樹、隨機森林等各種演算方法的深入剖析,第9章引領讀者進入「類神經網路及人工智慧」的殿堂,最後一章則為R語言之大數據處理。本書不但說明如何使用R語言的套件來進行資料採礦,更從不同角度闡述這些採礦模型(演算法)的原理,並以淺顯易懂的範例讓讀者了解其成因及產出,例如關聯分析之強度指標、貝氏分類的機率計算、階層分群之演算步驟、剪影係數的計算解析、決策樹之建構程序、隨機森林之節點路徑、類神經網路的權值修正等,只要讀者願意投入些許時間,必能豁然開朗、明其堂奧。


目錄大綱


Chapter 1 R語言及其擴展包之使用
01-1 R語言及RStudio之安裝與更新
01-2 RStudio之使用簡介
01-3 如何建立R Script程式檔
01-4 R語言之物件簡介
01-5 如何使用R語言之擴展包

Chapter 2 關聯分析
02-1 何謂關聯規則
02-2 如何運用關聯規則
02-3 使用arules擴展包進行關聯分析
02-4 使用arulesViz擴展包繪製關聯分析圖

Chapter 3 叢集分析
03-1 何謂叢集分析
03-2 叢集分析之各類演算法
03-3 使用stats擴展包進行Kmean演算
03-4 使用cluster擴展包進行Kmedoids演算
03-5 使用fpc擴展包進行DBSCAN演算
03-6 使用stats擴展包進行HC演算

Chapter 4 迴歸分析
04-1 迴歸分析的意義及功能
04-2 如何使用Excel進行迴歸分析
04-3 如何解讀迴歸分析的結果
04-4 如何運用迴歸方程式
04-5 如何進行多元迴歸分析
04-6 如何進行非計量變數的迴歸分析
04-7 如何處理多變量迴歸分析的共線問題
04-8 如何使用R語言進行簡單迴歸分析
04-9 如何將R語言分析結果匯出為Excel檔
04-10 R語言之多元迴歸分析及3D立體圖繪製
04-11 R語言之非計量變數的迴歸分析

Chapter 5 分類分析
05-1 單純貝氏分類演算法
05-2 k最近鄰分類演算法
05-3 線性判別分析
05-4 各種分類演算法的比較

Chapter 6 決策樹
06-1 決策樹之結構
06-2 決策樹之建構
06-3 如何選擇決策樹的切割點
06-4 使用R語言建立決策樹

Chapter 7 資料包絡分析
07-1 資料包絡分析之功能概述
07-2 資料包絡分析模式之解析
07-3 使用R擴展包執行DEA基本演算
07-4 使用R擴展包執行交叉效率分析
07-5 使用R擴展包執行超級效率分析
07-6 使用R擴展包執行成本效率分析
07-7 使用R擴展包執行跨期效率分析
07-8 其他免費DEA工具

Chapter 8 隨機森林
08-1 隨機森林的基本概念
08-2 隨機森林的演算步驟
08-3 使用R語言進行隨機森林演算
08-4 取出隨機森林演算結果的資訊
08-5 隨機森林之繪圖及路徑之建構
08-6 解釋變數最適量之尋找方法

Chapter 9 類神經網路及人工智慧
09-1 人工智慧的關鍵技術
09-2 類神經網路的基本概念
09-3 類神經網路演算說明
09-4 使用nnet擴展包進行類神經網路演算
09-5 使用neuralnet擴展包進行類神經網路演算
09-6 使用RSNNS擴展包進行類神經網路演算數及重複學習次數
09-7 類神經網路之影像辨識範例
09-8 使用MXNet進行CNN卷積神經網路演算

Chapter 10 R的大數據處理
10-1 使用平行處理及編譯,縮短處理時間
10-2 使用記憶體管理擴展包,擴大運用空間
10-3 透過瘦身減重及資料抽樣,增進處理績效
10-4 搭配Oracle Database進行資料採礦
10-5 搭配SQL Server進行資料採礦
10-6 大數據的來源

附錄A 如何使用本書隨附之範例檔

附錄B 程式檔清單

附錄C 資料檔清單

附錄D 解釋檔清單

附錄E 如何將資料匯入SQL Serve

附錄F 如何使用ODBC連結Oracle

附錄G 如何使用SQL Developer上傳資料表

附錄H 基本函數使用說明線連接
各章節精彩範例檔




相關書籍

Statistical Foundations of Data Science

作者 Fan Jianqing Li Runze Zhang Cun-Hui

2018-08-01

Microsoft Power BI 數據可視化與數據分析

作者 王國平

2018-08-01

快學熟用 D3 (D3.js for the Impatient)

作者 Philipp K. Janert 郭笑鵬譯

2018-08-01